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Использование имитационного 
моделирования для оценки эффективности 
обработки однородных данных 

на НРС-кластере 


Параллельные компьютеры кластерной архитектуры пользуются популярностью благодаря своей 
дешевизне и масштабируемости. Но при программировании задач для них нужно учесть дополнительные 
факторы, главные из которых — пропускная способность коммуникационной среды и скорость дисковой 
памяти. Задачи однородной обработки данных можно представить системой массового обслуживания для 
прогнозирования эффективности вычислений. Для некоторых алгоритмов теоретические оценки уже 
известны. В статье рассматривается универсальный экспериментальный подход, позволяющий оценить 
целый набор параметров для конкретной задачи и архитектуры кластера, используя имитационное 
моделирование. 


Введение 


Исследования эффективности параллельных алгоритмов для получения оценок 
времени выполнения программы на параллельных компьютерах ведутся с 60-х годов 
прошлого века. За этот период оборудование компьютеров значительно эволюциони- 
ровало, создавая необходимость вносить дополнения в теорию параллельного програм- 
мирования. Так, модель параллельного компьютера РВАМ (РагаПе! Вапдот Ассез$ 
Маспше — параллельная машина с произвольным доступом), которая подразумевает, что 
каждый процесс имеет доступ к произвольной ячейке памяти всего параллельного 
компьютера, и время этого доступа не зависит от процесса [1], не достаточно 
адекватна для компьютеров с разделяемой памятью. 

НРС-кластер (Ней Регюоттапсе Сотрийпз — высокопроизводительный вычисли- 
тель) представляет собой комплекс из нескольких компьютеров, называемых узлами, 
которые соединены между собой высокоскоростной сетью. Как правило, все узлы 
кластера имеют идентичную архитектуру и вычислительную среду для обеспечения 
эффективности вычислений. Это удобно и позволяет построить формальную модель 
такого компьютера для прогнозирования эффективности вычислений конкретных 
задач [2]. Поскольку популярны решения, использующие многопроцессорные и 
многоядерные узлы кластера, условимся называть вычислительным устройством 
(ВУ) любое устройство, выполняющее независимый поток команд (узел, процессор, 
ядро). Во всех дальнейших рассуждениях будем полагать, что каждый процесс (1...п) 
выполняется на отдельном ВУ (1...М№), т.е. и = М. 

Кроме НРС-кластеров выделяют еще и НА-кластеры (Н1ей-ауайаБИйу, ЕаПоуег 
сияет). Задача НА-кластеров — обеспечение доступности и отказоустойчивости 
сетевых служб. В данной работе они не рассмотрены. 

Оценить вычислительную мощность (ВМ) параллельного компьютера можно 
по-разному. Обычно используют характеристики пиковой и реальной производи- 
тельности, измеряемые в операциях с плавающей запятой за единицу времени 
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(ГФлопс). Под пиковой (теоретической) производительностью понимается максималь- 
ное количество операций, выполняемых за единицу времени, пренебрегая скоростью 
доступа к памяти и коммуникационной среде, и при условии максимальной загружен- 
ности конвейеров процессора. Под реальной производительностью подразумевается 
скорость, которую удалось достичь на тесте ГлирасК [3]. 

С точки зрения пользователя качество параллельного компьютера определяется 
временем решения конкретных задач, а не потенциально возможной мощностью вы- 
числительной системы. Мощный, согласно универсальным оценкам, компьютер может 
иметь низкую эффективность вычислений конкретных задач [4]. Это связано с особен- 
ностью параллельного алгоритма и его требованиями к архитектуре компьютера. 

Оценки эффективности вычислений конкретной задачи можно использовать 
для выбора под эту задачу аппаратуры кластера либо для определения перспектив от 
распараллеливания последовательного алгоритма. Однако для приемлемой точности 
оценки нужно учесть множество факторов: накладные расходы, связанные с коммуни- 
кационной средой; скорость доступа к данным на диске; интенсивность вычислений 
и коэффициент распараллеливания алгоритма. Пренебрежение любым из этих факторов 
приводит к неточным оценкам и к разочарованию, когда готовая параллельная 
программа запускается на реальном кластере. 

Для грубой, но быстрой оценки эффективности вычислений можно воспользо- 
ваться классическими моделями. Наиболее известной является Закон Амдала (1967), 
выражающий ускорение параллельной программы (5) через отношение доли после- 
довательной части программы (Г. к доле параллельной её части (Р, РЕТ- Г): 


1 
(1-Р)+Р/М” 


= (0 
где №- количество ВУ. 

Густафсон в 1980 году предложил закон, который учитывает масштабирование 
по данным, под которым подразумевается уменьшение значения доли последо- 
вательной части программы при увеличении размерности задачи [2]: 


5(№=М-а-Р)-(М-П. (2) 


В 1990 году учеными Аланом Карпом и Хорасом Флаттом выведена метрика, 
позволяющая экспериментально оценить динамику эффективности вычислений на 
разном количестве ВУ [5]: 


1/5 —1/№ 
е= 


1-1/М№ ” © 


где е- доля последовательной части. 

Совершенствуя теоретический подход к оцениванию эффективности вычислений 
на кластере, в работах [6-8] для однородных задач, являющихся типичными для таких 
параллельных компьютеров, предложено представить вычислительный процесс системой 
массового обслуживания. Такой подход позволил учесть новый фактор — стратегию 
организации данных на кластере. 

В продолжение этих работ, используя модель систем массового обслуживания, 
получены оценки с учетом особенностей параллельного алгоритма, выраженных в виде 
паттернов параллельного программирования [9]. Паттерны представляют собой набор 
каркасов готовых алгоритмических решений, применимых для решения разных задач. 
Поскольку сложная схема распараллеливания затрудняет масштабирование алгоритма, 
обычно параллельный алгоритм сводится к одному из таких паттернов [10]. 
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Сложность применения оценок в [9] связана с необходимостью проводить экспе- 
рименты с готовой программой на готовом кластере. Если это не доступно, но можно 
оценить параметры алгоритма (исходя из предполагаемой архитектуры кластера и 
размеров задачи), целесообразно использовать имитационное моделирование для прове- 
дения экспериментов. 

Имитационное моделирование (ИМ) - это технология моделирования дискретных и 
непрерывных процессов в компьютере, используя численное представление этих процес- 
сов, выраженное для малых интервалов времени. В частности, ИМ позволяет исследовать 
свойства сложных систем массового обслуживания (СМО), для которых аналитические 
методы зачастую неприменимы. Оно позволяет актуализировать случайные величины в 
набор возможных конкретных сценариев развития СМО во времени и получить по резуль- 
татам устойчивую статистику. Имитационная модель отображает стохастический процесс 
смены дискретных состояний системы в непрерывном времени в форме моделирующего 
алгоритма. Такая модель состоит из объектов, обладающих стохастическими характерис- 
тиками и алгоритмом поведения [11]. 

Для проведения ИМ удобно воспользоваться специализированным языком, таким, 
как ЗПМОГА, З1М$СНТРТ, У15$1М или СР5$. В данной работе использован язык СР5$. 
Основой описания модели в СРЗ$ является дискретно-событийный подход, разработан- 
ный Гордоном в 1960 г. СР$$ изящно объединяет соответствие предметной области, 
эффективность программирования, математическую обоснованность методик исследо- 
вания и быстродействие. 

Теоретические исследования в работах [6], [8-9] опираются на стратегии органи- 
зации данных, среди которых выделяют три: централизация - все данные расположены 
на одном сервере-хранилище данных (СД); дублирование - копии данных расположены 
на №, СД; расчленение — данные разделены между №, СД. Дублирование и расчленение 
подразумевает распределенное хранение данных, но расчленение — более дешевый 
вариант, позволяющий использовать болышее дисковое пространство (в №, раз по 
сравнению с дублированием). 

Исследования [9] затрагивают два паттерна — «мастер-рабочий» и «одна программа, 
много данных». Паттерн «мастер-рабочий» (МР) подразумевает, что в вычислитель- 
ном процессе имеется один главный (контролирующий) процесс и М подчиненных 
(рабочих) процессов. Главный процесс «раздает» задания подчиненным и ждет от 
них результатов. После получения очередного результата, 1{-му процессу «поручает- 
ся» очередная «порция» задания. Для задач, которые можно разбить на достаточно 
мелкие части, паттерн МР обеспечивает балансировку загрузки — равномерную загру- 
женность всех ВУ в вычислительном процессе. 

Паттерн «Одна программа, много данных» (ОПМД) предполагает, что при 
запуске исходная задача разбивается на № подзадач, каждая из которых вычисляется 
параллельно. При этом каждый процесс определяет, какую подзадачу нужно решать, 
исходя из номера процесса и количества процессов (№). Предполагается, что для 
решения своей подзадачи процессу требуется считать все исходные данные. 

Для паттернов МР и ОПМД и для разных стратегий дублирования и 
расчленения данных разработана имитационная модель. Полный текст модели на 
языке СР$5 с пояснениями можно получить у авторов (р2((@лкКг.пе!). При дублиро- 
вании СД моделируются многоканальным устройством, при расчленении — серией 
одноканальных устройств. 
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Фрагмент модели многоканального устройства для дублирования имеет вид: 


'РАТАЗВС ЗТОВАСЕ УРАТАМОБЕ$ | 
'СРОЗВС ЗТОВАСЕ УСРОСОПМТ 
'СЕМЕВАТЕ ‚ ‚ ‚УСРОСОПМТ 
'.САТС  ООЕБОЕ ОРАТАЗВС 

РМТЕВ ПРАТАЗВС 

РЕРАВКТ ОЛРАТАЗВС 

АРУАМСЕ УБАТА МТТМЕ, ЕМ5ХРОТ$ 


ВАУЕ РАТАЗВС 
Е  ОСРУОЗВС 
ЕМТЕВ  СРОЗВС 
РЕРАВТ ОСРОЗВС 

АРУАМСЕ УСРИ_МТТМЕ, ЕМ$ХРОТ5 
ВАУЕ СРОЗВС 


р Ю Е 
[ее 
а 


Для каждого эксперимента значение М№ сохраняется в переменной УСРОСООМТ 
модели. Блок СЕМЕКАТЕ создает М№ транзактов, которые циркулируют, начиная с метки 
Г.САГС и заканчивая безусловной пересылкой — оператором ТКАМ$ЕЕВ. Каждый транзакт 
сначала делает запрос к данным, занимая многоканальное устройство РАТАЗБВС. Если 
все СД уже заняты, транзакты ожидают в очереди ОРАТАЗВС. Доступ к данным 
осуществляется за экспоненциально распределенное время со средним значением 
УРАТА_МТМЕ. После получения данных транзакт освобождает устройство и занимает 
другое устройство — СРОЗКС, соответствующее ВУ. Так как мы условились, что М = и, 
очередь к ВУ не образуется. Время выполнения одного блока вычислений распределено 
экспоненциально со средним временем УСРИ_МТИМЕ. Расчленение моделируется более 
громоздко, текст модели для него здесь не приведен. 

ИМ позволяет получить сразу несколько полезных оценок параллельного алгорит- 
ма: время выполнения для разных размерностей задачи и количества ВУ, среднее время 
ожидания данных, загруженность ВУ и серверов данных. В проведенных эксперимен- 
тах число серверов Л = 4. В результате получены экспериментальные оценки времени 
выполнения, времени ожидания данных и доли потерь от ожидания данных для разного 
количества ВУ. Для паттерна МР графики соответствующих зависимостей показаны на 


рис. 1 — 4. На рис. 5 показана зависимость времени выполнения вычислений от коли- 
чества СД (О). 
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Рисунок 5 — Зависимость времени выполнения расчетов от количества серверов данных 


Аппроксимируя метрику Карпа — Флатта и подставляя ее значение в формулу 
Амдала, можно оценить время вычислений задачи в неисследованных точках. Для 
стратегии дублирования данных увеличение времени, начиная примерно с М = 8, 
обусловлено дополнительными расходами в виде очередей доступа к данным. 

График среднего времени ожидания (рис. 2) иллюстрирует, что расчленение 
менее эффективно, чем дублирование на фиксированную величину времени ожидания 
данных при фиксированном О (СД). Небольшие флуктуации на графике обусловле- 
ны вероятностными свойствами имитационной модели. 

Для паттерна ОПМД графики соответствующих зависимостей показаны на 
рис. 6—9. На рис. 10 показана зависимость времени выполнения вычислений от коли- 
чества СД (О). 

На кластере Инпарком-64, разрабатываемом Институтом кибернетики им. В.М. Глуш- 
кова НАНУ совместно с ГНПП «Электронмаш», проведены эксперименты по эффек- 
тивности пакета вычислений миграции сейсмических волн (разработанного компанией 
Теззега1 Тесппо|озлез$ Шшс.) для разных сетей и стратегий организации данных. 
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Рисунок 9 — Метрика Карпа — Флатта е(М№) 
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Рисунок 10 — Зависимость времени выполнения расчетов от количества серверов данных 


Скорость доступа к данным на дисковом хранилище при централизации в этом 
эксперименте совпадает со скоростью доступа к локальным дисковым массивам. 
В данный момент ведутся работы по созданию высокоскоростного дискового 
хранилища на кластере Инпарком 64/128/256. 
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Рисунок 11 — Время расчета миграции сейсмических волн для разных стратегий организации 
данных 


Миграция сейсмических волн реализована в рамках паттерна ОПМД. Форма 
зависимости времени выполнения программы при разных стратегиях организации 
данных совпадает с соответствующим графиком для паттерна ОПМД. 

Сравнивая две стратегии данных (дублирование и расчленение), можно сделать 
вывод, что поведение вычислительного процесса сходно, если данные хорошо распре- 
делены между серверами. 

Угол наклона метрики Карпа — Флатта свидетельствует, что при выбранных 
параметрах алгоритма и аппаратуре кластера паттерн «мастер-рабочий» обладает 
лучшей балансировкой нагрузки, чем «одна программа, много данных». 


Заключение 


Компьютерное имитационное моделирование с помощью языка ОР5З показало 
себя крайне полезным инструментом для решения многих практических задач мас- 
сового обслуживания. Представление параллельного вычисления системой массового 
обслуживания на НРС-кластере, в котором каждый поток команд обладает своей 
локальной памятью, а данные передаются между потоками обменом сообщений, 
позволило получить оценки новых параметров, которые лучше выявляют узкие места 
реализации алгоритма и архитектуры кластера. Например, из результатов проведен- 
ных экспериментов видно, что если не изменить скорости дисковых операции для 
данного алгоритма, обращение к данным станет узким местом системы уже на 10 ВУ 
для указанных паттернов. Улучшить скорость дисковых операций можно, например, 
используя параллельную файловую систему (Глзге, Сл егЕЗ и т.д.). 
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П.Г. Тульчинский, Р.А. Ющенко 

Застосування 1мтациного моделювання для ощинки ефективност! обробки однордних даних на 
НРС-кластер! 

Паралельн! комп’ютери кластерно! архтектури користуються популярн!стю завдяки 1х малй шин! та 
масштабованост!. Але програмуючи для них треба врахувати додатков! фактори, головними з яких Ее — 
пропускна здатнсть комункащ иного середовища та швидксть дисково! пам’ят!. Задач! однор1дно! 
обробки даних можна представити системою масового обслуговування для прогнозування ефективност! 
обчислень. Для деяких алгоритмив теоретичн! ощнки вже встановлен:. У статт! розглядаеться унверсальний 
експериментальний шдхд, який дозволяе ошнити шлий набтр параметрув для конкретно! задач 1 
арх!тектури кластера, використовуючи 1мташине моделювання. 


Р.С. Тшет5Ку, К.А. Уизйсйепко 

Ото ЭпиШаНоп Модейто Гог Езйтайио ОпНогт Вай Ргосеззто оп НРС Сш$ег 

Нов реогтапсе сТазег сотрщегз аге уегу роршаг дие ю $ 10% рисе ап зса1аб Ищу. Ви зеуега| пе\у 
1551е5 из Бе айеп4еЯ Це ргозгатие оп засб зузбетл$. Тре п10$ё нирогапё аге Бап4\ла оЁ фе 
и\егсоппесе ап ГО зюгазе зреед. РгоМет оЁ итоги даа ргосеззте сап Бе 4езсте4 ш {1епи$ оЁ диепете 
Феогу Рог езйтайоп$ оРсотрщайоп еЁсхепсу. Рог зеуега] рагаПе! а]еогИ пл Феогейса] езбттайопз аге атеаду 
Кпо\уп. Ш 1$ агафе \е ргорозе ап итуегза| ехрегипепиа! арргоасВ Базе оп сотршег зпащайоп. Озшз 1$ 
арргоасН \е сап еуалайе тапу ргорегйез оЁ сотрщаНоп ргосез$ ог а зресйе4 ргозтат оп а зресйеа 
сазбег агсИИесвте. 


Статья поступила в редакцию 18.07.2008. 
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